개요 및 아키텍처 진화 지도
AlexNet의 기초적인 성공에서 시작하여 초심층의 합성곱 신경망(CNN). 이 전환은 학습 안정성을 유지하면서 극단적인 깊이를 처리하기 위해 획기적인 아키텍처 혁신이 필요했음을 의미합니다. 우리는 세 가지 중요한 아키텍처—VGG, GoogLeNet (Inception), 그리고 ResNet—각각의 아키텍처가 스케일링 문제의 다른 측면을 어떻게 해결했는지 이해함으로써, 이 수업 후반부에 정교한 모델 해석의 기초를 마련합니다.
1. 구조적 단순성: VGG
VGG는 매우 균일하고 작은 커널 크기를 사용해 깊이를 극대화하는 새로운 패러다임을 제안했습니다 (특히 3x3 합성곱 필터 스택된 방식). 계산적으로 비용이 높지만, 구조적 균일성이 가장 낮은 아키텍처 변화로 인해 얻어진 원시적인 깊이가 성능 향상의 주요 원동력임을 입증했으며, 작고 효율적인 수용장(수집 영역)의 중요성을 확립했습니다.
2. 계산 효율성: GoogLeNet (Inception)
GoogLeNet는 계산 비용이 높은 VGG에 대응하기 위해 효율성과 다중 규모 특징 추출을 우선시했습니다. 핵심 혁신은 Inception 모듈이며, 병렬 합성곱(1x1, 3x3, 5x5)과 풀링을 수행합니다. 특히 중요한 점은 1x1 합성곱 을 버블넥(병목)으로 활용 비용이 큰 연산 이전에 파라미터 수와 계산 복잡성을 크게 줄입니다.
주요 공학적 도전 과제
Question 1
Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?
Question 2
The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?
Critical Challenge: Vanishing Gradients
Engineering Solutions for Optimization
Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.
Q1
Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.
Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.